查看原文
其他

SiliconCloud上线语音大模型SenseVoice-Small

SiliconCloud 硅基流动
2024-09-14
(由SiliconCloud平台图片生成模型Flux.1生成)
曾经,Whisper模型是很多人做语音转文字任务时的首选,不过,近期阿里通义实验室开源的语音大模型SenseVoice成为开发者们更理想的选择,它的效果更好,响应速度更快,并且拥有Whisper所不具备的能力。
为响应SiliconCloud用户对语音大模型的呼声,今天,硅基流动团队在SiliconCloud上线了SenseVoice-Small模型(可免费使用),让开发者可以通过API(兼容OpenAI的API协议)快速接入到自己的语音转文字类的应用场景。
API文档:
https://docs.siliconflow.cn/reference/createaudiotranscriptions-1

SenseVoice评测表现及亮点


SenseVoice是一个基础语音理解模型,具备多种语音理解能力,涵盖了自动语音识别(ASR)、语言识别(LID)、情感识别(SER)以及音频事件检测(AED)。该模型旨在提供全面的语音处理功能,适合于对识别精度有更高要求的场景,可以处理更复杂的语音输入,并生成更为准确的结果。
其中,SenseVoice-Small可以快速处理语音数据,并在有需要时迅速做出响应,适用于对延迟敏感的实时语音交互系统等应用场景。
在多语言语音识别性能上,他们在开源基准数据集AIShell-1,AIShell-2,Wenetspeech,LibriSpeech和Common Voice上对SenseVoice和Whisper进行对比。在中文和粤语识别方面,SenseVoice-Small模型具有优势。
SenseVoice-Small具有在语音中检测音频事件的能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。
在语音情绪识别(SER)方面,他们在多个测试集上对各种指标进行了评估,并与近期基准的众多结果进行了全面比较。所选测试集包含中英文数据,包括表演、电影和自然对话等多种风格。在不对目标数据进行微调的情况下,SenseVoice-Small具有不错性能。
在推理速度方面,SenseVoice-Small版本通过采用非自回归端到端架构,提供极低的推理延迟,只需要70ms来处理10秒音频,比Whisper-Small快5倍以上,比Whisper-large快15倍以上。
未来,硅基流动团队还会上线文本转语音(TTS)大模型,结合SenseVoice-Small以及SiliconCloud上的语言大模型,就可以让用户可以开发端到端的语音聊天应用程序,支持更多人机交互场景。敬请期待。

Token工厂SiliconCloud

Llama-3.1(8B)、Qwen2(7B)等免费用


除了SenseVoice-Small语音大模型,SiliconCloud已上架包括Llama-3.1FLUX.1BAAI/bge-largeDeepSeek-V2-ChatDeepSeek-Coder-V2SD3 MediumQwen2GLM-4-9B-Chat、SDXL、InstantID在内的多种开源大语言模型、图片生成模型、代码生成模型以及向量模型。
其中,Llama-3.1(8B)、GLM4(9B)等多个大模型API免费使用,让开发者与产品经理无需担心研发阶段和大规模推广所带来的算力成本,实现“Token 自由”。

作为集合顶尖大模型的一站式云服务平台,SiliconCloud为开发者提供更快、更便宜、更全面、体验更丝滑的模型API。
SiliconCloud支持用户自由切换符合不同应用场景的模型,同时提供开箱即用的大模型推理加速服务,为生成式AI应用带来更高效的用户体验。

SiliconCloud,让超级产品开发者实现“Token自由”

邀请新用户体验SiliconCloud狂送2000万Token/人

Token奖励上不封顶:
siliconflow.cn/zh-cn/siliconcloud

扫码加入用户交流群
继续滑动看下一个
硅基流动
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存